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(四 川 大 学 计算 机 学 院 , 成 都 610065) 


摘 E: 缺陷 定位 是 软件 质量 保证 中 关键 且 困 难 的 一 项 工作 。 随 着 软件 规模 增 大 ， 人 工 进 行 缺 陷 定 位 的 成 本 越 来 越 
高 ， 自 动 化 的 缺陷 定位 技术 成 为 研究 热点 。 现 有 的 基于 程序 频谱 的 缺陷 定位 技术 可 以 将 缺陷 定位 到 程序 语句 ， 但 对 
于 大 型 复杂 的 软件 系统 ， 这 种 定位 方法 将 带 来 较 大 的 时 间 花 销 。 针 对 此 问题 ， 提 出 一 种 基于 程序 频谱 的 两 阶段 缺陷 
定位 方法 ， 第 一 阶段 为 粗 粒度 定位 ， 将 缺陷 定位 到 程序 模块 ; 第 二 阶段 为 细 粒 度 定位 ， 在 定位 的 程序 模块 中 ， 再 将 
缺陷 定位 到 语句 ; 最 后 输出 可 疑 语 句 推 荐 列表 ， 辅 助 开发 人 员 的 调试 工作 。 实 验 结果 表明 ， 相 比 于 传统 的 方法 ， 该 
方案 在 保证 定位 效果 的 前 提 下 ， 平 均 减 少 了 10.24% 的 定位 时 间 。 
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Two-phase fault localization method based on program spectrum 


Wu Jia, Hong Meit, Wan Ying, Deng Huixin, Pan Chunxia 
(School of Computer Science, Sichuan University, Chengdu Sichuan 610065, China) 


Abstract: Fault localization is a critical and difficult task for software quality assurance. With the increasing of software scale, 
the cost of manual fault localization becomes higher and higher, so that many research tasks focus on automatic fault 
localization. Existing methods of program spectrum based fault localization locate fault to program statements, they can be 
time consuming in large and complex software. To solve this problem, this paper proposed a two-phase fault localization 
method based on program spectrum. The first phase was coarse grained localization, located fault to program modules. The 
second phase was fine grained localization, located fault to program statements in the suspicious modules. Finally, the 
recommendation list of suspicious statements was obtained to assist the developer in debugging. Experimental results show 
that comparing with traditional methods, this method can guarantee the effect of localization and reduce localization cost by 
10.24% on average. 

Key words: automatic fault localization; program spectrum; test case; software debugging 


0 引言 盖 情 况 和 测试 执行 结果 构成 的 一 张 二 维 表 ， 通 过 对 程序 频谱 

z: 的 计算 ， 可 以 获得 缺陷 的 可 疑 位 置 。Jones 等 人 0 首先 提出 
在 软件 质量 保证 中 ， 传 统 的 缺陷 定位 要 求 开 发 人 员 多 次 Tarantula 计算 公式 ， 根 据 程 序 频谱 计算 程序 组 件 含有 缺陷 的 
设置 程序 断 点 ， 执 行 失 败 的 测试 用 例 ， 观 察 程序 变量 取 值 ， 可 能 性 。Abreu 等 人 [10] 之 后 提出 Jaccard 计算 公式 和 Ochiai 


至 找到 缺陷 根 原 因 。 自 动 化 缺陷 定位 方法 依据 缺陷 程序 相 计算 公式 来 计算 程序 组 件 的 可 疑 分 数 。 文 献 [14] 提 出 PREL 技 
关 的 数据 ， 比 如 源 代码 、 测试 套件 、 测试 记录 、 缺陷 报告 等 ， AR, 使 用 PageRank 算法 区 分 不 同 测试 的 贡献 程度 ,， 从 而 增强 
采用 数据 分 析 技 术 ， 发 现 可 疑 的 缺陷 位 置 ， 辅 助 开 发 人 员 找 传统 SFL 算法 的 定位 效果 。 文 献 [16] 针 对 测试 套件 中 成 功用 
到 缺陷 根 原 因 。 相 比 于 传统 方法 ， 现 代 技 术 借助 于 计算 机 的 例 占 比较 大 问题 ， 提 出 EP* 方 法 来 调整 成 功用 例 数 的 影响 ， 
处 理 能 力 ， 进 行 缺陷 数据 分 析 ， 实 现 了 缺陷 定位 的 自动 化 ， 从 而 提高 缺陷 定位 精度 。 
减少 了 定位 成 本 ， 提 高 了 定位 效率 。 动态 缺陷 定位 方法 是 以 测试 用 例 运 行 成 本 为 代价 的 ， 现 

在 自动 化 缺陷 定位 方法 中 , 根据 是 否 需要 执行 测试 用 例 ， 有 的 SFL 方法 直接 将 缺陷 定位 至 语句 , 一 方面 定位 时 间 开 多 
可 分 为 静态 缺陷 定位 0 、 动态 缺陷 定位 549 以 及 多 种 方法 相 较 大 , 需要 收集 、 分 析 每 个 测试 用 例 对 每 条 语句 的 覆盖 情况 ; 
结合 的 缺陷 定位 L711。 静态 缺陷 定位 常 使 用 信息 检索 U0、 机 另 一 方面 可 行 性 有 限 , 面向 对 象 单元 测试 常 采用 的 随机 测试 ， 
器 学 习 B 和 等 技术 分 析 日 志 、 缺 陷 报 告 等 信息 进行 定位 。 动 态 很 难保 证 语句 的 覆盖 率 ， 语 句 的 频谱 计算 有 限 。 本 文 提 出 一 
缺陷 定位 通过 执行 测试 用 例 获取 相关 信息 , 使 用 程序 切片 G9] 种 基于 程序 频谱 的 两 阶段 缺陷 定位 方法 ， 基 本 思路 为 : 第 一 
或 程序 频谱 [19 等 技术 来 确定 可 能 含有 人 缺陷 的 程序 片段 。 多 阶段 进行 粗 粒 度 定 位 ， 选择 最 流行. 较 高 准确 率 的 
种 方法 相 结合 的 缺陷 定位 通常 组 合 以 上 多 种 定位 技术 来 提高 Tarantula 算法 计算 每 个 程序 模块 的 可 疑 分 数 ， 将 缺陷 定位 到 
缺陷 定位 的 准确 性 。 在 动态 缺陷 定位 中 ， 基 于 程序 频谱 的 缺 可 能 的 程序 模块 ;第 二 BD EIRETAT D A 
陷 定 位 (spectrum-based fault localization,SFL) 方 法 因 其 具有 较 。 度 的 定位 ， 选 择 交叉 表 算 法 ， 考虑 语句 获 盖 青 况 与 测试 用 例 
好 定位 效果 而 被 广泛 关注 。 执行 结果 之 间 的 相关 关系 ， 计 算 语句 的 可 疑 分 数 ， 将 缺陷 定 

Reps 等 人 1931 首次 提出 程 ba 谱 的 概念 , 后 来 的 研究 者 将 立 到 可 能 的 语句 ， 最 终生 成 可 疑 语句 推 大 2s. 辅助 开发 人 
其 用 于 程序 分 析 。 程 序 频谱 是 结合 测试 用 例 对 被 测 程序 的 履 员 定 位 缺陷 。 实 验证 明 ， 相 比 于 直接 定位 至 语句 的 方法 ， 本 
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1 ”第 一 阶段 一 一 可 疑 程序 模块 定位 


在 面向 对 象 程序 中 ， 


基本 程序 模块 定义 为 类 的 方法 。 在 


这 一 阶段 ,依据 被 定位 缺陷 项 目的 源 代码 、 测 试 记录 (包括 测 
试 覆 盖 信 息 及 测试 用 例 执行 结果 ), 计算 程序 模块 被 测试 用 例 


覆盖 的 频谱 ， 确 定 可 疑 的 
序 。 主 要 包括 以 下 步骤 : 


程序 模块 列表 ， 并 按照 可 颖 程度 排 


a) 基于 测试 记录 ， 构 建 程序 频谱 。 
b) 使 用 Tarantula 算法 计算 程序 模块 的 可 颖 分数 。 


c) 生成 可 疑 程 序 模块 推荐 列表 。 


1.1 构建 程序 频谱 


文献 [20] 将 程序 频谱 的 构建 方式 分 为 : 轻 量 级 构建 、 


RIT 


E 


imli 


级 构建 及 其 他 方式 三 种 。 本 文采 用 轻 量 级 程序 频谱 构建 方式 ， 


即 通过 简单 统计 测试 用 例 


B 
构建 程序 频谱 。 


对 软件 项 目的 覆盖 信息 和 执行 结果 


在 执行 测试 用 例 时 ， 


获取 测试 覆盖 信息 和 执行 结果 的 方 


法 很 多 , 比如 可 以 使 用 测试 覆盖 率 工 具 (EclEmma、Cobertura、 


Jacoco 等 ) 收 集 并 保存 为 文件 形式 。 解析 履 盖 率 文 件 并 存储 每 


个 测试 用 例 对 程序 模块 、 


语句 的 覆盖 情况 ， 统 计 每 个 测试 用 


例 对 源 代码 中 每 个 程序 模块 的 覆盖 情况 ， 得 到 程序 模块 的 履 


HEIE PE mw， 结 合 测试 用 例 集 的 执行 结果 向 量 R, 生成 程序 模 
块 粒度 的 程序 频谱 S。 
LY f fi 
bl tn "e ton 
gm | 1 
mom om om (1) 
t, 1 fn2 and tmn 
i h m 


其 中 : 


a) m 代表 源 代码 中 程序 模块 个 数 ，n 代表 测试 用 例 集中 


测试 用 例 个 数 。 


b) =1 代 表 程 序 模块 i 被 测试 用 例 j sss n =0 代表 程 


序 模块 i 未 被 测试 用 例 j 覆盖 。 


c) ”=1 代 表 测 试用 例 j 执行 失败 ，”=0 代表 测试 用 例 j 


执行 成 功 。 


1.2 生成 可 疑 程序 模块 推荐 列表 


目前 , 大 部 分 SFL f 
程序 频谱 作为 基础 ， 并 考 


究 在 设置 可 疑 分 数 计算 公式 时 都 以 
虑 Wong 等 人 03 总 结 的 以 下 假设 : 


a) 程序 组 件 的 怀疑 率 与 该 程序 实体 被 成 功 测试 用 例 履 


盖 的 次 数 成 反比 。 


b) 程序 组 件 的 怀疑 率 与 该 程序 实体 被 失败 测试 用 例 履 


盖 的 次 数 成 正比 。 


件 含有 缺陷 的 可 能 性 越 大 。 本 文 以 1.1 节 构 建 的 程序 频谱 S 
作为 Tarantula 算法 的 输入 , 计算 源 代 码 中 每 个 程序 模块 的 可 
疑 分 数 ， 按 照 分 数 由 高 到 低 排 列 ， 生 成 可 疑 程序 模块 推荐 列 
X M, 包含 排名 、 程 序 模块 名 (“ 类 名 -> 方法 名 -> 参数 名 ”) 以 
及 可 疑 分 数 ， 1 为 列表 M 实例 。 
2 第 二 阶段 一 一 可 疑 语句 定位 

第 一 阶段 输出 可 疑 程序 模块 推荐 列表 M， 若 以 此 作为 缺 
陷 定位 参考 ， 开 发 人 员 仍 会 有 较 大 的 代码 阅读 量 。 因 此 ， 需 
要 进一步 分 析 模 块 中 哪些 语句 可 能 含有 缺陷 。 可 疑 语 句 定位 
阶段 以 前 一 阶段 保存 的 语句 履 盖 情况 、 执 行 结果 和 可 疑 程 序 
模块 推荐 列表 M 作为 输入 ,输出 可 疑 语句 推荐 列表 T。 包括 
以 下 步 又 : 

a) iE SERT SELLE 

b) 基于 语句 覆盖 情况 和 执行 结果 ， 构 建交 叉 表 。 

c) 使 用 交叉 表 算法 计算 语句 的 可 疑 分 数 。 

d) 生成 可 疑 语 句 推荐 列表 。 


1 ry/CategoryltemRenderer. V 0.990888383 
2 ry/CategoryltemRenderer Z)V 0.984162896 
3 0970982143 
4 taset,)V 
5 Dataset: )V 
6 
z 'alegory/CategoryltemRenderer. )i 0.92161017 
8 'ndilems-» ()Lorg/jfree/chart/LegenditemCollection 0.9216 
9 Zomperable.Ljeva/lang/Comparable; V 0910041841 
0 (zz 896907217 
0.878787879 
2 0.871743487 
3 iue-»(Ljava/lang/Number;Ljava/lang/Comparable;Ljava/lang/Comparable;)JV — 0.846303502 
»0V 0820754717 


echonState-» (Lorg/jfree/data/category/CategoryDatasetSelechonState;))V — 0820754717 


图 1 可 疑 程序 模块 推荐 列表 M 实例 
Fig.1 Example of suspicious program module recommendation list M 
2.1 计算 可 疑 分 数 阅 值 

当 程 序 模块 数量 较 多 时 ， 若 要 分 析 每 个 模块 中 的 每 条 语 
句 将 会 带 来 巨大 的 计算 开销 。 因 此 ， 需 要 舍弃 不 太 可 能 含有 
缺陷 的 模块 ， 本 文 利用 可 颖 分数 闵 值 过 滤 掉 那些 不 大 可 能 含 
有 缺陷 的 程序 模块 ,对 剩余 模块 再 进行 语句 粒度 的 定位 分 析 。 
文献 [21] 中 将 可 疑 分 数 闪 值 定 为 a=0.7 , 即 对 于 任何 软件 
硕 目 ， 可 疑 分 数 大 于 等 于 0.7 的 程序 模块 才 进 一 步 分 析 。 本 
文 使 用 o=07 在 Defects4jP?!rp jt] 355 个 真实 缺陷 上 进行 实验 ， 
统计 结果 显示 有 22.54% 的 真实 缺陷 所 在 程序 模块 的 可 疑 分 
数 小 于 0.7。 因 此 , 闵 值 选择 不 当 , 会 影响 对 部 分 缺陷 的 定位 。 

为 了 更 有 效 确定 闵 值 ， 本 文 提出 一 种 自动 计算 可 疑 分 数 
闷 值 的 方法 。 在 第 一 阶段 输出 的 列表 M 中 ,丢弃 可 疑 分 数 为 
0 的 模块 ， 保 留 可 疑 分 数 为 1 的 模块 。 对 于 其 他 模块 ， 本 文 
认为 只 有 可 疑 分 数 大 于 等 于 平均 值 的 才 值 得 进一步 分 析 。 攻 
此 ， 本 文 使 用 以 下 公式 计算 可 颖 分数 闵 值 : 


o= i x 5i Tarantula(m, ) (3) 


c) 程序 组 件 的 怀疑 率 与 该 程序 实体 未 被 失败 测试 用 例 


履 盖 的 次 数 成 反比 。 


d) 在 设 定 怀 疑 率 公式 时 ,应 该 为 假设 b) 设 置 更 高 的 权重 。 


Jones 等 人 [3 提出 Tarantula 公式 计算 程序 组 件 中 含有 缺 


陷 的 可 能 性 ， 计 算 结果 作 


为 该 程序 组 件 的 可 疑 分 数 。 他 们 认 


LE 
由 大 量 成 功 测试 用 例 覆 盖 


大 量 失败 测试 用 例 才 盖 的 程序 组 件 极 有 可 能 含有 缺陷 ， 


的 程序 组 件 不 太 可 能 含有 缺陷 。 给 


定 程序 组 件 m， 计 算 其 可 疑 分 数 的 公式 为 


Tarantula(m) 


其 中 : 


2 ny (qn)!n, 
i nq (qn) /np € n,Gn)!n, Q) 


a) nym) 和 n, (mM) ZR T i REF HF. m 的 失败 测试 用 例 


数量 和 成 功 测试 用 例 数量 。 


测试 用 例 数 量 。 


b) ww 和 ,表示 测试 用 


Rel 
GM 


集中 失败 测试 用 例 数量 和 成 功 


Tarantula(m) 的 取 值 范 


用 为 [0,1]， 分 数 越 高 代表 该 程序 组 


其 中 :k 为 列表 M 中 ,可 疑 分 数 不 为 0 和 1 的 程序 模块 个 数 。 
经 实验 验证 ， 使 用 平均 值 作为 冰 值 时 ， 只 有 1.97% 的 缺陷 因 
闵 值 过 大 导致 定位 失败 , 相 比 文献 [21] 中 使 用 的 c=0.7 降低 了 
20.57%. 

本 文 使 用 式 (3) 计 算 每 个 缺陷 项 目的 可 疑 分 数 阔 值 ， 根 据 
计算 结果 对 第 一 阶段 产生 的 可 疑 模块 推荐 列表 M 进行 筛选， 
保留 可 疑 分 数 大 于 等 于 阔 值 的 程序 模块 ， 得 到 程序 模块 集 MI. 
2.2 构建 交叉 表 

交叉 表 是 统计 学 中 常用 的 一 种 分 类 汇总 表 ， 交 叉 表 分 析 
通常 用 于 研究 两 个 或 多 个 分 类 变量 之 间 的 关系 。Wong 等 人 
0 将 交叉 表 分 析 应 用 到 缺陷 定位 研究 中 ， 为 每 条 语句 构建 交 
叉 表 ， 计 算 语 句 含 有 缺陷 的 可 能 性 。 

统计 每 个 测试 用 例 对 MIT 中 每 条 语句 的 覆盖 情况 及 执行 
结果 , 形成 语句 粒度 的 覆盖 矩阵 Coa 。 结 合 执行 结果 向 量 R 
构建 语句 粒度 的 程序 频谱 ， 为 每 条 语句 生成 交叉 表 Q， 含 有 
列 分 类 变量 “测试 用 例 履 盖 语 名 情况 ”和 行 分 类 变量 “测试 
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用 例 运 行 结果 ”。 试用 例 。 本 文 方案 要 求 在 测试 用 例 集中 至 少 有 一 个 失败 的 测 


WK 1 所 示 , 其 中 Nes 代表 覆盖 语句 s; 并 运行 成 功 的 测 。 ”试用 例 和 一 个 成 功 的 测试 用 例 ， 因 此 舍弃 了 2 个 不 适用 于 本 
试用 例 个 数 。 文 方案 的 缺陷 版 本 ,分 别 为 Chart-10b、Lang-57b， 它 们 的 测 
表 1 语句 s; 的 交 义 表 Q 试用 例 集 中 都 没有 成 功 的 测试 用 例 。 剩 余 355 个 缺陷 版 本 具 
Tab.1  Crosstab Q of program statement s; 体 信 息 如 表 2 所 示 。 
aS T8 5) 08 s T OL 表 2 实验 项 目 信息 
运行 结果 EXE AH P i i : 
覆盖 语句 s, 未 覆盖 语句 s 合计 Tab.2 Information of experimental projects 
运行 成 功 Ness) Niso) N; 项 目 名 缺陷 版 本 个 数 平均 代码 行 数 平均 测试 用 例 个 数 平均 失败 测试 用 例 个 数 
运行 失败 Ner Nuro) N; Chart 25 4187 230 4 
合计 Ne; Nos, N Lang 64 814 176 2 
2.3 生成 可 疑 语句 推荐 列表 Math 106 2266 215 2 
在 交叉 表 算 法 [0 中， 输入 每 条 语句 的 交叉 表 ， 通 过 以 下 Time 27 5218 2606 3 
步骤 计算 每 条 语句 含有 缺陷 的 可 能 性 。 Closure — 133 16483 1540 3 


a) 通过 假设 检验 考察 分 类 变量 之 间 的 相关 情况 , 使 用 以 
下 公式 计算 卡 方 值 XC. XC 越 大 代表 分 类 变量 越 相关 。 


(Nere) c Ecc)? 4 Nesen — Ecs)? 


xG)- * 
Ecri) Ecs) (4) 
(Nore — Eyre) 十 (Nus; - Eusen)? 
Eure) Eysqs) 
其 中 : 
Ne, IN 
Ecc, = E z 
N 
Eins 三 E N; 
(5) 
Nos, IN; 
Evrop =N 
Nuc IN, 
Eusi) e 
b) 使 用 式 (6) 计 算 分 类 变量 之 间 的 相关 关系 。 
Neres IN; 
ps) =-= 6 
Ness, / Ns ( ) 


WR gs)=1， 代 表 语 句 * 的 覆盖 与 执行 结果 之 间 完 全 独 
立 ， 可 以 认为 语句 的 覆盖 对 成 功 执行 和 失败 执行 有 着 相同 
的 贡献 值 ， 如 果 p(s.)>1， 代 表 语 句 s 的 覆盖 与 失败 执行 更 相 
KR; 反之 代表 代表 语句 的 履 盖 与 成 功 执行 更 相关 。 

c) 结合 式 (4) 和 (6) 的 计算 结果 ， 计 算 每 条 语句 的 可 疑 分 数 。 

X) Gsi)>1 
crosstab(s;) = 0 G(s;)=1 (7) 
—-X*(s) G(si)<1 

根据 2.2 节 构 建 的 语句 交叉 表 ， 计 算 每 条 语句 的 

crosstab(s) 值 作为 可 疑 分 数 ， 分 数 越 高 的 语句 越 有 可 能 为 真实 


图 2 为 可 疑 语句 推荐 列表 了 SEP 


jory/CategorytemRenderer Z)V 
tegory/CategorytemRenderer Z)V 5 
S67 3021215107 
568 3021215107 
llegory/CategoryDataset.V 1339 2813118774 
1340 2813118774 
1358 — 1886144201 
tegory/CategoryDataset V 1367 — 179978011 
»üv 201 1460490611 

>V 202 1460490611 
'nderericategory/CategorytemRenderer) 1727 — 1049776165 


图 2 nuE tfi T 实例 
Fig.2 Example of suspicious statement recommendation list T 


3 ”实验 验证 


本 文通 过 分 析 总 结 现 有 文献 ， 选 取 了 GitHub 平台 中 的 
真实 缺陷 库 Defects4j 作为 实验 数据 集 。Defects4j 是 由 Just 等 


3.1 方案 可 行 性 实验 验证 

实验 设计 : Defects4j 中 的 355 个 缺陷 版 本 分 别 执行 其 对 
应 的 测试 用 例 集 并 使 用 Cobertura 工具 收集 每 个 测试 用 例 的 
履 盖 信息 和 执行 结果 。 利 用 本 文 提 出 的 方案 分 别 进行 缺陷 定 
位 ， 并 对 结果 进行 评价 。 
评价 指标 :本 实验 使 用 Top N 作为 评价 指标 ， 表 示 对 一 
个 项 目的 多 个 缺陷 版 本 进行 定位 后 ， 真 实 缺 陷 语句 在 推荐 列 
表 中 的 排名 为 前 N 的 情况 次 数 。 

实验 结果 及 分 析 : 本 实验 对 Defects4j 中 的 5 个 项 目 缺 陷 
版 本 进行 缺陷 定位 , 结合 Defects4j 提供 的 真实 缺陷 位 置信 息 ， 
使 用 top N 作为 评价 指标 ， 划 分 了 6 个 段 ， 分 别 是 真实 缺陷 
在 可 疑 语 句 列 表 的 第 1 位、 第 2-10 位 、 第 11-20 位 、 第 21- 
50 位 、 第 50 位 以 上 ， 分 别针 对 5 个 项 目 统计 了 缺陷 定位 情 
况 ， 其 结果 如 图 3 所 示 。 


Top 50 以 上 


(a) (b) (c) 


Top 50 以 上 
8.2796 


Top2150 40 50LLE 


22.22% 
Top 21-50 
20.31% 
Top 11-2 
0% 


Time Closure 


(d) (e) 

图 3  Defects4j 中 各 项 目 定位 结果 分 布 

Fig.3 Distributions of project fault localization results in Defects4j 

在 图 3 中 (a) 至 (e) 分 别 表示 每 个 项 目的 定位 结果 中 , 真实 

缺陷 在 各 个 分 段 的 分 布 情况 。 经 统计 ， 有 68% 的 缺陷 在 推荐 

列表 的 前 10 中 列 出 ,有 34% 的 缺陷 在 推荐 列表 的 首位 定位 。 

证 明 本 文 方案 具有 一 定 可 行 性 。 
对 于 定位 失败 的 14 个 项 目 版 本 ， 分 析 发 现 了 两 个 原因 : 
a) 项 目的 缺陷 为 在 源 代 码 中 丢失 了 一 个 完整 的 程序 模 

块 ， 导 致 在 第 一 阶段 产生 的 可 疑 程序 模块 列表 中 没有 该 模块 


人 史 2 提出 的 一 个 可 扩展 框架 , 该 框架 包含 了 5 java 开源 项 
目的 多 个 真实 缺陷 ， 并 将 每 个 项 目的 单个 缺陷 看 做 一 个 缺陷 
版 本 。Defects4j 为 每 个 真实 缺陷 都 提供 了 一 组 开发 人 员 编写 
的 测试 用 例 集 ， 该 测试 用 例 集中 至 少 包 含 一 个 执行 失败 的 测 


的 信息 。 

b) 项 目的 测试 用 例 集中 有 大 量 不 稳定 (偶然 正确 ) 测 试 
例 ， 即 真实 缺陷 所 在 程序 模块 被 大 量 成 功 测试 用 例 歼 盖 ， 
可 疑 分 数 小 于 阔 值 ， 导 致 在 第 二 阶段 中 丢失 了 真实 缺陷 所 在 
的 模块 。 
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3.2 方案 有 效 性 实验 验证 的 存在 往往 是 多 个 且 有 联系 的 ， 未 来 可 以 进一步 的 研究 多 缺 
实验 设计 : 比较 实验 ， 使 用 目前 流行 的 缺陷 定位 算法 陷 定 位 问题 。 
Jasscard?.!9l, OchicaiP-!9l, Dstar2U21, Op2l331, Ep3DOlX 355 个 b) 本 文采 用 轻 量 级 程序 频谱 构造 方法 , 忽略 了 程序 组 件 
天 缺陷 进行 定位 ， 并 将 每 个 算法 的 定位 结果 与 本 文 方案 进 ” 间 的 控制 及 数据 依赖 关系 ， 在 未 来 研究 中 可 考虑 采用 重量 级 
行 对 比分 析 。 程序 频谱 构造 方法 ， 从 而 提高 定位 效果 。 
评价 指标 : 采用 定位 时 间 和 定位 支出 这 两 个 指标 对 实验 CHORO ANNE EEN 
结果 进行 评估 。 oo7 
a) 定位 时 间 : 在 输入 缺陷 项 目 源 代码 及 测试 记录 时 、 输 " 
出 可 疑 语句 推荐 列表 时 分 别 获取 当前 系统 时 间 ， 两 者 之 差 作 ius 
为 定位 时 间 。 X 
b) 定位 支出 (Expense): 根据 定位 结果 列表 , 开发 人 员 找 ut 
到 真正 缺陷 所 需 的 支出 ， 其 计算 公式 为 mum 
Expense 2 nx En (8) Pe 
N 0.01 
其 中 : n 表示 真正 缺陷 语句 在 结果 列表 中 的 排名 ， 若 多 个 语 CHART LANG MATH TIME CLOSURE 
名 拥 有 相同 的 可 疑 分 数 ， 本 文 取 他 们 的 平均 排名 。N 表示 程 i 


DS 


序 总 语句 数 。 4 定位 支出 对 比 
实验 结果 及 分 析 : 本 实验 统计 了 每 种 方法 的 定位 时 间 ， Fig.4 Comparison of fault localization expense 
将 本 文 方案 分 别 与 Jasscard、Ochicai、Dstar、Op2、EP3 五 
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